No Brasil e em muitos países Democráticos, é comum que membros da Câmara dos Deputados e do Senado Federal tenham alguma forma de se comunicar, ampla e continuamente, com a população. Uma forma fácil de fazer isso é através das redes sociais: Facebook, Instagram e Twitter têm se tornado mais um meio no qual a população pode acompanhar as atividades parlamentares.
Entretanto, podemos descobrir mais coisas através de uma análise sobre a atividade dos deputados nessas redes, e faremos isso utilizando os dados dos deputados no Twitter, através de seis perguntas:
A partir de agora, observaremos mais atenciosamente aos dados e, aos poucos, responderemos as perguntas. No Brasil a democracia é dita representativa, isto é, os cidadãos elegem outros cidadãos - os candidatos - para os representarem em cargos legislativos e executivos. Durante os anos que o Brasil adotou esse sistema político, muitas formas de interação entre a população e candidatos pôde ser vista: comícios, palestras, manifestações, etc. Entretando, com o “advento” da internet, a interação entre a população e os políticos foi facilitada, e agora os candidatos eleitos podem utilizar as redes sociais como forma de comunicação.
Redes sociais como Facebook, Instagram e Twitter têm sido um meio muito importante de comunicação. Podemos então analisar a participação dos candidatos eleitos nestas redes sociais, e faremos isso com os dados do Twitter, e aí surge a primeira pergunta:
Se a internet facilitou a interação dos congressistas com seus eleitores, eles deveriam aproveitar essa facilidade e utilizá-la em seu favor. Entretanto, nem todos os congressistas tem Twitter. Vamos então analisar como é a participação dos congressistas, por partido, no Twitter, tentando descobrir quais os partidos que menos tem representatividade:
p1 <- atividade %>%
filter(is.na(twitter)) %>%
group_by(partido) %>%
count(twitter) %>%
ggplot(mapping = aes(x = reorder(partido, n), y = n)) +
geom_histogram(stat = 'identity') +
xlab("Partido") + ylab("Quantidade de Congressistas") + ggtitle("Quantos congressistas não possuem Twitter?") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
ggplotly(p1, tooltip = c("n"))
Nas redes sociais existem diversos mundos, e cada usuário participa de quantos desses mundos quiser: jogos, política, notícias, música, futebol, etc, e em cada um desses mundos existem alguns perfis que muitos usuários seguem. Um dos mundos que cresceu bastante são de mulheres que ensinam diversas formas de maquiagem e dão conselhos sobre viagens e outros muitos outros tópicos, e juntas formam o mundo das “Blogueirinhas” e, dentre os jargões desse mundo, “publi” se refere a um post de publicidade.
No nosso contexto de congressistas, queremos entender quais partidos mais fazem publicidade, isto é, quais partidos mais divulgam conteúdo que não é de sua autoria, e faremos isso comparando a quantidade de tweets próprios com a quantidade de retweets feitos pelos congressistas:
p5 <- atividade_real %>%
filter(n_proprio < n_retweet) %>%
group_by(partido) %>%
summarize(total_retweet=sum(n_retweet), total_proprio=sum(n_proprio)) %>%
ggplot(mapping = aes(x = total_proprio, y = total_retweet, label = partido)) +
geom_point() + xlab("Número de Tweets Autorais") + ylab("Número de Retweets") + ggtitle("Tweets vs Retweets: Os divulgadores")
ggplotly(p5)
Pelo gráfico, notamos que a distribuição de Tweets e Retweets é quase linear: a cada dois retweets, o congressista faz um tweet. Entretanto, isso só se aplica aos congressistas que mais retweetam do que criam conteúdo próprio, gerando mais uma pergunta:
p6 <- atividade_real %>%
group_by(partido) %>%
summarize(total_retweet=sum(n_retweet), total_proprio=sum(n_proprio)) %>%
ggplot(mapping = aes(x = total_proprio, y = total_retweet, label = partido)) +
geom_point() + xlab("Número de Tweets Autorais") + ylab("Número de Retweets") + ggtitle("Tweets vs Retweets: Todo mundo")
ggplotly(p6)
Interessantemente, a distribuição ainda é próxima de linear, mas agora podemos notar que o número de Tweets próprios chega a ser três vezes maior que o número de retweets. Alguns partidos, como PT e PSL, sempre estão com valores maiores e isso se deve ao número de congressistas eleitos por esses partidos. Ainda assim, é interessante que vejamos a proporção de retweets no total de publicações desses partidos:
p61 <- atividade_real %>%
group_by(partido) %>%
summarise(proporcao_rts = sum(n_retweet) / (sum(n_proprio) + sum(n_retweet))) %>%
ggplot(mapping = aes(x = reorder(partido, proporcao_rts), y = proporcao_rts, label = partido)) +
geom_histogram(stat = 'identity') + ggtitle("Porcentagem de Retweets no total") +
xlab("Partido") + ylab("Retweets (%)") +
theme(axis.text.x = element_text(angle = 45))
ggplotly(p61)
Ainda assim, alguns dos partidos não estão com a porcentagem no gráfico: por quê?
p62 <- atividade_real %>%
filter(partido %in% c("DC", "PPL", "AVANTE", "PMN", "S/Partido")) %>%
group_by(partido) %>% summarise(total_rts = sum(n_retweet), total_proprio = sum(n_proprio))
glimpse(p62)
## Observations: 5
## Variables: 3
## $ partido <chr> "AVANTE", "DC", "PMN", "PPL", "S/Partido"
## $ total_rts <dbl> 0, 0, 0, 0, 0
## $ total_proprio <dbl> 69, 0, 16, 0, 21
Podemos então perceber que: * Os congressistas do AVANTE, PMN e Sem Partido não deram nenhum retweet, e os retweets são 0% do total; * Os congressistas do DC e do PPL nem deram retweets nem twittaram nada, mesmo que possuam conta oficial no Twitter.
“SDV” é uma expressão comum nas redes sociais entre os usuários que estão tentando atrair seguidores: enquanto tentam convencer pessoas a seguí-los nas redes sociais, oferecem seguir de volta, uma proposta de mútuo benefício, em que “SDV” é a abreviação para “Segue de Volta”.
Entretanto, para ser eleito um congressista, um cidadão precisa de uma parcela razoavelmente grande dos eleitores e, por isso, é coerente que um congressista tenha um número maior de seguidores do que pessoas que segue. Tentaremos então identificar como é o engajamento dos congressistas que não se encaixam neste padrão.
O objetivo da nossa pergunta é, portanto, descobrir como é o engajamento no Twitter quando algum desses deputados publica algo autoral:
p7 <- atividade %>%
filter(segue > seguidores) %>%
group_by(partido) %>%
summarise(e_medio=mean(engaj_total_proprio), num_congressistas=n()) %>%
ggplot(mapping = aes(x = num_congressistas, y = e_medio, label = partido)) +
geom_point() +
xlab("Quantidade de Congressistas no Partido") + ylab("Engajamento Médio") +
scale_y_continuous(label=scales::comma) +
theme(axis.text.x = element_text(angle = 45, hjust = 1), axis.text.y = element_text(angle = 45, hjust = 1))
ggplotly(p7)
Como podemos ver no gráfico, o engajamento total em conteúdo autoral dos congresistas do PSL, PRB, MDB e PSC é bem pequeno. Entretanto, falta uma base para comparação, e isso nos traz outra pergunta:
Para descobrir a resposta, precisamos descobrir qual é a média do engajamento dos congresso, para então poder comparar com os dados que vimos anteriormente:
p8 <- atividade_real %>%
group_by(partido) %>%
summarise(e_medio=mean(engaj_total_proprio), num_congressistas=n()) %>%
ggplot(mapping = aes(x = num_congressistas, y = e_medio, label = partido)) +
geom_point() +
xlab("Quantidade de Congressistas no Partido") + ylab("Engajamento Médio") +
scale_y_continuous(label=scales::comma) +
theme(axis.text.x = element_text(angle = 45, hjust = 1), axis.text.y = element_text(angle = 45, hjust = 1))
ggplotly(p8)
Agora, sabemos o engajamento comum dos congressistas de cada partido, e podemos pensar: * O PSL, que geralmente tem o engajamento de 198 mil em média, tem 4 deputados com 560 de engajamento médio; * O PRB, que geralmente tem o engajamento de 363 em média, tem 2 deputados com 508 de engajamento médio, ou seja, acima da média do partido, mesmo considerando que estes deputados seguem mais pessoas do que o seu número de seguidores;
Por quê? Infelizmente não temos dados para responder isto, então deixarei para uma análise futura, com mais dados.
Obrigado pela leitura!